智能论文笔记

PRM path smoothening by circular arc fillet method for mobile robot navigation

Meral Kılıçarslan Ouach , Tolga Eren , Evrencan Özcan

分类：机器人

2021-12-07

运动规划和导航，特别是对于在复杂导航环境中运行的移动机器人，自机器人启动以来一直是一个核心问题。一种解决它的启发式方法是构造基于图形的表示（路径），捕获配置空间的连接。概率路线图是机器人社区的常用方法，为导航移动机器人路径规划构建路径。在该研究中，提出了通过在障碍物的存在下从PRM获得路径之后的移动机器人路径规划的路径平坦化。所提出的方法以两个步骤运行;第一个在障碍物存在环境中生成初始状态之间的最短路径，其中通过连接中间节点来使用PRM来构造直线路径。第二步是通过节点存在引起的每个角落平滑。使用弧形圆角刮削角落确保移动机器人的光滑转弯。用不同的PRM功能模拟和测试了建议的方法。实验结果表明，构造的路径不仅仅是提供平稳的转动;在避免障碍时，它也更短且更快地完成机器人。

translated by 谷歌翻译

Face Generation and Editing with StyleGAN: A Survey

Andrew Melnik , Maksim Miasayedzenkau , Dzianis Makarovets , Dzianis Pirshtuk , Eren Akbulut , Dennis Holzmann , Tarek Renusch , Gustav Reichert , Helge Ritter

分类：计算机视觉 | 机器学习

2022-12-18

Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.

translated by 谷歌翻译

Efficient Long Sequence Modeling via State Space Augmented Transformer

Simiao Zuo , Xiaodong Liu , Jian Jiao , Denis Charles , Eren Manavoglu , Tuo Zhao , Jianfeng Gao

分类：自然语言处理 | 机器学习

2022-12-15

Transformer models have achieved superior performance in various natural language processing tasks. However, the quadratic computational cost of the attention mechanism limits its practicality for long sequences. There are existing attention variants that improve the computational efficiency, but they have limited ability to effectively compute global information. In parallel to Transformer models, state space models (SSMs) are tailored for long sequences, but they are not flexible enough to capture complicated local information. We propose SPADE, short for $\underline{\textbf{S}}$tate s$\underline{\textbf{P}}$ace $\underline{\textbf{A}}$ugmente$\underline{\textbf{D}}$ Transform$\underline{\textbf{E}}$r. Specifically, we augment a SSM into the bottom layer of SPADE, and we employ efficient local attention methods for the other layers. The SSM augments global information, which complements the lack of long-range dependency issue in local attention methods. Experimental results on the Long Range Arena benchmark and language modeling tasks demonstrate the effectiveness of the proposed method. To further demonstrate the scalability of SPADE, we pre-train large encoder-decoder models and present fine-tuning results on natural language understanding and natural language generation tasks.

translated by 谷歌翻译

Disentangling Content and Motion for Text-Based Neural Video Manipulation

Levent Karacan , Tolga Kerimoğlu , İsmail İnan , Tolga Birdal , Erkut Erdem , Aykut Erdem

分类：计算机视觉

2022-11-05

Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.

translated by 谷歌翻译

Exploiting Trust for Resilient Hypothesis Testing with Malicious Robots

Matthew Cavorsi , Orhan Eren Akgün , Michal Yemini , Andrea Goldsmith , Stephanie Gil

分类：机器人

2022-09-25

我们为对抗性多机器人群众跨任务中的决策制定开发了一个有弹性的二进制假设测试框架。该框架利用机器人之间的随机信任观察，以在集中式融合中心（FC）中得出可进行的弹性决策，即使I）在网络中存在恶意机器人，其数量可能大于合法机器人的数量，并且II ）FC使用所有机器人的一次性噪声测量。我们得出两种算法来实现这一目标。第一个是两个阶段方法（2SA），该方法基于收到的信任观察估算机器人的合法性，并证明在最严重的恶意攻击中可最大程度地减少检测错误的可能性。在这里，恶意机器人的比例是已知但任意的。对于不明的恶意机器人，我们开发了对抗性的广义似然比测试（A-GLRT），该测试（A-GLRT）都使用报告的机器人测量和信任观察来估计机器人的可信赖性，其报告策略以及同时的正确假设。我们利用特殊的问题结构表明，尽管有几个未知的问题参数，但这种方法仍然可以计算处理。我们在硬件实验中部署了这两种算法，其中一组机器人会在模拟道路网络上进行交通状况的人群，但仍会受到SYBIL攻击的方式。我们从实际通信信号中提取每个机器人的信任观察结果，这些信号提供有关发件人独特性的统计信息。我们表明，即使恶意机器人在大多数情况下，FC也可以将检测误差的可能性降低到2SA和A-GLRT的30.5％和29％。

translated by 谷歌翻译

Unsupervised Simplification of Legal Texts

Mert Cemri , Tolga Çukur , Aykut Koç

分类：自然语言处理 | 人工智能 | 机器学习

2022-09-01

法律文本的处理一直是自然语言处理（NLP）的新兴领域的发展。法律文本包含词汇，语义，语法和形态中的独特术语和复杂的语言属性。因此，对于法律领域特定的文本简化（TS）方法的开发对于促进普通人理解法律文本并为主流法律NLP应用程序的高级模型提供投入至关重要。尽管最近的一项研究提出了一种基于规则的TS法律文本方法，但以前尚未考虑法律领域中的基于学习的TS。在这里，我们介绍了一种无监督的法律文本简化方法（USLT）。 USLT通过替换复杂的单词和分裂长句子来执行特定于域的TS。为此，USLT检测句子中的复杂单词，通过掩盖转换器模型生成候选者，并根据等级分数选择替代的候选者。之后，USLT递归将长句子分解为较短的核心和上下文句子的层次结构，同时保留语义含义。我们证明，USLT在文本简单性中优于最先进的域总TS方法，同时保持语义完整。

translated by 谷歌翻译

HTML版本

Visual Comparison of Language Model Adaptation

Rita Sevastjanova , Eren Cakmak , Shauli Ravfogel , Ryan Cotterell , Mennatallah El-Assady

分类：人工智能

2022-08-17

神经语言模型被广泛使用；但是，它们的模型参数通常需要适应时间和资源消耗的应用程序的特定域和任务。因此，最近引入了适配器作为模型适应的轻巧替代方案。它们由一组特定于任务的参数组成，这些参数缩短了训练时间和简单的参数组成。适配器训练和组成的简单性带来了新的挑战，例如保持适配器属性的概述，并有效地比较其生产的嵌入空间。为了帮助开发人员克服这些挑战，我们提供了双重贡献。首先，在与NLP研究人员的密切合作中，我们对支持适配器评估的方法进行了需求分析，并检测到了对固有的（即基于相似性的嵌入相似性）和外部（即基于预测的）解释方法的需求。。其次，在收集的要求的激励下，我们设计了一个灵活的视觉分析工作空间，可以比较适配器属性。在本文中，我们讨论了几次设计迭代和替代方案，以进行交互式，比较视觉解释方法。我们的比较可视化表明，适应性嵌入媒介的差异和对各种人性化概念（例如，人的名字，人类素质）的预测结果。我们通过案例研究评估我们的工作空间，并表明，例如，根据Context-0（deNsTextualized）嵌入对语言偏见任务进行培训的适配器，引入了一种新型的偏见，其中单词（甚至与性别独立的单词）一样与女性代词更类似于女性。我们证明这些是上下文0嵌入的工件。

translated by 谷歌翻译

Localization supervision of chest x-ray classifiers using label-specific eye-tracking annotation

Ricardo Bigolin Lanfredi , Joyce D. Schroeder , Tolga Tasdizen

分类：计算机视觉

2022-07-20

卷积神经网络（CNN）已成功应用于胸部X射线（CXR）图像。此外，已证明注释的边界框可以改善CNN的可解释性，以定位异常。但是，只有几个相对较小的CXR数据集可用，并且收集它们非常昂贵。在放射科医生的临床工作流程期间，可以计时地，可以以非侵入性的方式收集眼睛跟踪（ET）数据。我们使用从放射科医生记录的ET数据，同时要求CXR报告训练CNN。我们通过将它们与关键字的命令相关联，并使用它们来监督异常的本地化，从而从ET数据中提取摘要。我们表明，此方法改善了模型的解释性，而不会影响其图像级分类。

translated by 谷歌翻译

COVID-19 Detection from Respiratory Sounds with Hierarchical Spectrogram Transformers

Idil Aytekin , Onat Dalmaz , Kaan Gonc , Haydar Ankishan , Emine U Saritas , Ulas Bagci , Haydar Celik , Tolga Cukur

分类：机器学习

2022-07-19

监测普遍的空气传播疾病，例如COVID-19的特征涉及呼吸评估。虽然听诊是一种症状监测的主流方法，但其诊断效用受到专用医院就诊的需求而受到阻碍。基于便携式设备上呼吸道声音的记录，持续的远程监视是一种有希望的替代方法，可以帮助筛选Covid-19。在这项研究中，我们介绍了一种新型的深度学习方法，可以将Covid-19患者与健康对照组区分开，鉴于咳嗽或呼吸声的音频记录。所提出的方法利用新型的层次谱图变压器（HST）在呼吸声的光谱图表示上。 HST在频谱图中体现了在本地窗口上的自我发挥机制，并且窗口大小在模型阶段逐渐生长，以捕获本地环境。将HST与最新的常规和深度学习基线进行比较。在跨国数据集上进行的全面演示表明，HST优于竞争方法，在检测COVID-19案例中，在接收器操作特征曲线（AUC）下达到了97％以上的面积。

translated by 谷歌翻译

Over-the-Air Federated Edge Learning with Hierarchical Clustering

Ozan Aygün , Mohammad Kazemi , Deniz Gündüz , Tolga M. Duman

分类：机器学习

2022-07-19

我们检查了通过直播（OTA）聚合的联合学习（FL），移动用户（MUS）旨在借助聚合本地梯度的参数服务器（PS）在全球模型上达成共识。在OTA FL中，MUS在每个训练回合中使用本地数据训练他们的模型，并以未编码的方式使用相同的频带同时传输其梯度。根据超级梯度的接收信号，PS执行全局模型更新。尽管OTA FL的通信成本显着降低，但它容易受到不利的通道影响和噪声的影响。在接收器侧采用多个天线可以减少这些效果，但是对于远离PS的用户来说，路径损失仍然是一个限制因素。为了改善此问题，在本文中，我们提出了一种基于无线的层次FL方案，该方案使用中间服务器（ISS）在MUS更密集的区域形成簇。我们的计划利用OTA群集聚合与MUS与其相应的IS进行交流，而OTA全球聚合从ISS到PS。我们提出了针对所提出算法的收敛分析，并通过对使用ISS的衍生分析表达式和实验结果的数值评估显示，与单独使用较少的传输功率相比，利用ISS的结果比单独的OTA FL具有更快的收敛性和更好的性能。我们还使用不同数量的群集迭代以及不同数据集和数据分布来验证性能的结果。我们得出的结论是，群集聚集的最佳选择取决于MUS和集群之间的数据分布。

translated by 谷歌翻译